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基于 字 词 问 量 的 多 尺度 卷 积 神经 网 络 微 博 评论 
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摘要 : [目的 /意义 ] 微 博 评论 情感 分 类 模型 可 以 为 相关 与 情 监管 部 门 正 确 管控 话题 事件 的 发 展 状况 和 与 
情 提供 一 定 的 指导 作用 。[ 方 法 /过 程 ] 基 于 字 词 向 量 的 多 尺度 卷 积 神经 网 络 , 运 用 多 尺度 卷 积 核 改善 微 博 评论 
中 上 下 文 信息 有 限 的 条 件 制约 ,构建 基于 字 词 向 量 的 多 尺度 卷 积 神经 网 络 微 博 评论 情感 分 类 模型 ;通过 爬 取 
“ 微 博 热 搜 人 整改 "数据 ,对 模型 的 可 行 性 和 优越 性 进行 验证 。[ 结果 /结论 ] 验证 结果 表明 基于 字 词 向 量 的 多 尺 


层 器 积 神经 网 络 在 微 博 与 情 等 上 下 文 信息 有 限 的 短文 本 分 类 任务 中 表现 良好 。 本 文 在 理论 层面 为 微 博 与 情 情 
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昼 语 倾向 进行 更 好 的 引导 和 监管 。 
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> 随 着 社交 媒体 的 快速 发 展 , 越 来 越 多 的 网 络 用 户 
通 地 社交 媒体 平台 表达 自己 的 情感 ,观点 和 看 法 。 根 
据 2018 年 第 二 季度 微 博 财报 数据 显示 ,截至 2018 年 6 
尺 微 博 月 活跃 用 户 共 4.31 亿 , 与 上 一 季度 相 比 增长 了 
2 {00 万 ,移动 端 占 比 达到 93% ,日 活跃 用 户 数 增 至 
1.94Z" 。 微 博 作为 一 种 新 兴 的 信息 发 布 及 社交 媒体 
正印 ,具有 开放 性 、 即 时 性 .交互 性 和 自由 性 等 特点 , 移 
动 终端 APP 提供 的 便利 性 使 得 用 户 可 以 随时 表达 自 
己 观 点 和 情感 ,对 微 博 评论 进行 情感 分 类 成 为 学 术 界 
关注 的 新 课题 , 它 可 以 更 好 地 帮助 与 情 管理 部 门 进行 
与 情 的 引导 和 管理 。 

近年 来 国内 外 学 者 相继 展开 了 舆情 情感 分 类 的 相 
关 研究 。 国 外 学 者 Rui N S 构建 了 聚合 情感 语义 识 
别 和 观点 传播 影响 模型 , 并 着 重 研究 了 全 球 情感 计算 
框架 ,分 析 了 影响 情感 传播 的 影响 因素 ;Soleymani MD 
定义 了 多 模 态 情感 分 析 问题 ,认为 多 模 态 情感 分 析 具 
有 重要 开发 潜力 ;Ozturk NO 利用 Twitter 收集 23 881 
个 公众 对 叙利亚 难民 危机 看 法 的 相关 推 文 ,并 进行 情 


感 分 析 比 较 , 数 据 结果 表明 土耳其 语 推 文 的 情感 与 英 
文 推 文 的 情感 具有 很 大 的 差别 。 国 内 学 者 唐 晓 波 ” 构 
建 特征 本 体 对 特征 词 进行 分 类 ,计算 微 博 产 品评 论 的 
特征 情感 极 性 和 强度 ,并 通过 采集 微 博 数据 验证 方法 
的 有 效 性 ; 马 松 后“ 通过 抓 取 豆 办 电影 的 用 户 评论 ,使 
日 ROST EA 工具 进行 情感 分 析 , 并 通过 回归 方法 构建 
模型 进行 检验 ; 梁 晓 敏 ” 构建 了 和 与 论 对 象 分 析 模 型 并 
对 与 论 对 象 的 关系 网 络 进 行 研究 ,实验 结果 表明 模型 
能 有 效 识 别 主要 与 论 对 象 及 其 情感 词 ,并 能 直观 地 展 
现 网 民 对 与 论 对 象 随 时 间 演 化 的 情感 表达 和 关系 认 
知 。 
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目前 ,情感 分 类 这 一 类 自然 语言 处 理 任 务 ,一 般 被 
当做 时 序 信和 号 进行 处 理 。 其 性 能 主要 依赖 于 文本 特征 
的 表示 方法 。 唐 慧 丰 呈 提 出 采用 BiGrams 的 特征 表示 
方法 ,结合 信息 增益 特征 选择 方法 和 支持 向 量 机 分 类 
器 ,在 训练 集 充足 、 特 征 数量 适当 的 情况 下 表现 良好 。 
张 冬 雯 中 结合 Word2Vec 和 SVMperf 两 类 工具 ,采用 扩 
充 情感 词典 的 方法 ,取得 了 很 好 的 效果 。 
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然而 ,基于 文本 特征 的 标识 方法 ,多 依赖 于 上 下 文 
的 时 序 信息 。 由 于 微 博 评论 的 上 下 文 信息 十 分 有 限 ， 
并 含有 大 量 的 集 外 词 ( Out of Vocabulary, OO0V) ,因而 
微 博 评论 词 级 别 向 量 很 大 程度 上 受 中 文 分 词 的 影响 ， 
无 法 提供 足够 的 先 验 知识 进行 准确 的 情感 分 类 ,导致 
对 网 络 微 博 舆 情 的 情感 分 类 不 准确 王 ; 。 

近年 来 ,不 断 有 学 者 提出 用 图 像 领域 的 卷 积 神经 
网 络 来 解决 自然 语言 处 理 任务 。 冯 兴 杰 "提出 将 卷 
积 神经 网 络 与 注意 力 模型 相 结 合 ,避免 了 人 工 构建 情 
感 词典 的 依赖 ,从 而 提升 了 模型 整体 的 自动 化 性 能 。 
被 誉 为 “ 卷 积 神经 网 络 之 父 ”的 Yann Lecun'" 提出 ,用 
70 种 字符 粒度 的 向 量 (26 个 英文 字母 ,0 -9 阿拉 伯 数 
字 及 常用 符号 ) ,结合 卷 积 神经 网 络 ,来 进行 文本 分 类 。 
依赖 于 卷 积 层 的 特征 提取 能 力 ,将 这 些 字符 粒度 的 向 


量 提取 为 有 意义 的 特征 ,取得 了 广泛 关注 。 使 得 卷 积 


和 Y 

记 届 的 研究 问题 :基于 字 词 向 量 的 多 尺度 卷 积 神经 
网 络 构 建 微 博 评论 情感 分 类 模型 ;加 通过 典型 话题 对 
构建 的 微 博 评论 情感 分 类 准确 性 进行 验证 分 析 ;@) 验 


i 大 构建 的 微 博 评论 情感 分 类 模型 的 优越 性 。 


1 ”相关 理论 


1 本 与 情 情感 分 类 

情感 是 人 类 对 客观 事件 或 对 象 所持 有 的 态度 和 心 
理 感受 , 它 反映 的 是 具有 一 定 需求 或 愿望 ,观点 的 主体 
与 客体 之 间 的 关系 " 。 微 博 评论 的 情感 分 类 ,是 指 基 
于 微 博 评论 进行 挖掘 和 分 析 , 识别 出 其 中 的 情感 倾向 


是 “词典 + 规则 ”, 即 以 情感 词典 为 判断 情感 极 性 的 主 
要 依据 ,同时 考量 评论 中 的 句法 结构 。 此 类 方法 的 性 
能 取决 于 情感 词典 以 及 相应 判断 规则 的 质量 ,并 且 此 
二 者 都 需要 人 工 干预 ,导致 此 类 方法 依赖 于 先 验 知识 ， 
泛 化 能 力 较 差 。 

(2) 基 于 机 器 学 习 的 情感 分 类 方法 。 此 类 方法 的 
核心 工作 为 特征 工程 ,常用 到 的 有 N-gram 特征 ,句法 
竺 征 , 词 频道 文档 频率 (TF -IDF ) 特征 等 。 此 类 方法 使 
用 经 典 的 分 类 模型 :如 朴素 贝 叶 斯 ,支持 向 量 机 等 。 同 
样 ,此 类 方法 依然 依赖 于 人 工 的 特征 设计 , 泛 化 能 力 有 
限 。 

(3) 词 典 与 机 器 学 习 混 合 的 分 类 方法 。 此 类 方法 
将 “词典 + 规则 ” 视 为 一 种 特殊 的 特征 ,与 现 有 特征 (N 
-gram, 句 法 特征 等 ) 进行 结合 ,然后 选取 最 终 特征 组 
合 , 再 用 分 类 噩 进行 分 类 。 此 种 方法 结合 而 两 者 的 优 
点 ,是 目前 小 规模 样本 上 最 常用 的 方法 。 

(4) 基 于 深度 学 习 的 方法 。 此 类 方法 先 从 海量 评 
论语 料 中 训练 出 语义 词 向 量 ,在 通过 不 同 的 语义 合成 
方法 用 训练 出 的 词 向 量 构建 整体 评论 的 特征 表达 。 此 
类 方法 在 数据 充足 的 情况 下 表现 良好 ,但 在 数据 量 有 
限 的 情况 下 无 法 学 习 足 够 的 上 下 文 信息 。 

1.2 中文 分 词 与 词 向 量 训练 

相 较 于 Twitter 等 国外 社交 媒体 平台 , 微 博 评论 与 
其 主要 区 别 在 于 其 用 户 使 用 的 语言 为 中 文 , 这 导致 微 
博 评 论 相 较 于 情感 分 类 领域 中 英文 文本 的 研究 存在 较 
大 的 差异 性 。 首 先 , 中 文 文本 存在 着 分 词 问 题 ,英文 文 
本 中 的 空格 本 身 就 是 毫 无 争议 的 天 然 分 词 符 , 并 且 中 
文 的 分 词 是 一 个 相对 复杂 的 问题 ,往往 依赖 于 语义 信 
息 及 上 下 文 信息 ;其 次 , 微 博 评 论 中 充斥 着 大 量 的 流行 
语 \ 外 来 语 、 谐 音字 、 错 用 字 以 及 网 络 用 语 ,这 些 集 外 词 
(OOV ) 导致 传统 的 情感 分 词 算法 很 难 有 效 地 进行 分 
词 ,而 分 词 效果 的 优 劣 直接 影响 情感 词 向 量 的 好 坏 , 从 


性 ,并 将 情感 文本 分 类 为 衰 义 .贬义 评价 ,或 依照 情感 
强度 进行 分 类 .打分 等 相关 任务 ” 。 由 于 微 博 评论 的 
情感 分 类 文本 存在 一 定 的 时 序 性 ,通过 引入 注意 力 机 
制 ” ,可 以 将 文本 中 不 同 部 分 对 分 类 任务 的 贡献 赋予 
不 同 的 权重 ,从 而 训练 权重 和 矩阵。 通过 将 循环 神经 网 
络 中 的 LSTM 模型 与 注意 力 机 制 相 结合 ' ,可 以 选取 
微 博 评论 作为 数据 源 ,针对 热点 问题 的 用 户 情感 进行 
研究 。 

目前 主流 的 奥 情 情感 分 类 的 方法 ,分 为 以 下 四 
类 : 

(1) 基 于 词典 的 情感 分 类 方法 。 此 类 方法 的 核心 
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而 影响 情感 分 类 模型 的 性 能 。 随 着 对 深度 神经 网 络 ， 
特别 是 卷 积 神经 网 络 研究 的 不 断 深 入 ,学 者 发 现 ,即便 
将 句子 拆 分 为 细 粒 度 的 单元 ,也 能 够 依靠 卷 积 神经 网 
络 的 特征 提取 功能 ,学 习 出 有 效 的 语义 。 在 英文 文本 
领域 中 ,已 经 有 研究 证 明 , 即 便 完全 抛弃 英文 单词 ,将 
英文 分 割 成 字母 粒度 ,也 能 取得 不 错 的 文本 分 析 效 
果 '"”。 此 种 方法 ,将 英文 拆 分 成 理论 上 的 最 小 单元 ， 
依靠 卷 积 层 的 不 断 地 特征 提取 及 组 合 ,最 终 形成 有 效 
的 语义 。 基 于 以 上 特点 ,本 文 引入 以 “ 字 ” 为 单位 的 向 
量 表示 ,从 而 最 大 程度 保留 微 博 评论 的 原始 语义 ,将 集 
外 词 分 解 为 字 ,依靠 卷 积 层 ,对 字 级 别 向 量 与 词 级 别 向 
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量 进行 有 效 的 特征 提取 ,防止 因 分 词 导致 的 信息 丢失 
对 下 游 模型 的 干扰 。 

随 着 深度 学 习 在 与 情 情感 分 析 领 域 的 广泛 应 用 ， 
越 来 越 多 的 研究 者 开始 构建 基于 概率 的 浅 层 神经 网 络 
模型 。 这 种 模型 训练 出 来 的 词 向 量 ,与 语言 模型 高 度 
相关 。 通 过 神经 网 络 的 逐 层 计算 ,模型 最 终 输出 一 个 
低 维度 的 向 量 ,而 词汇 所 列 含 的 语义 被 分 散 地 存储 于 
向 量 的 各 个 维度 之 中 。 这 种 构建 方式 ,降低 了 词汇 本 
身 的 维度 ,避免 了 独 热 编码 等 模型 的 维度 灾难 问题 。 
在 这 些 浅 层 神经 网 络 模型 中 ,谷歌 公司 提出 的 分 布 式 
词 向 量 模型 Word2Vec'“ 是 目前 主流 的 词 向 量 表示 算 
法 。 根 据 对 训练 语料库 中 所 构建 词汇 的 上 下 文 语义 不 
断 调 节 词 向 量 ,使 得 语料库 中 具有 相似 上 下 文 的 ,语义 
相反 的 词汇 具有 相近 的 词 向 量 表示 "”) ,本 文选 用 
Wal2Vec 模型 对 词 向 量 进行 建 模 。 
1 入 卷 积 神经 网 络 
CO 卷 积 神经 网 络 (Convolutional Neural Network ， 
CNS) 通常 运用 在 图 像 处 理 领域 ,常用 作 图 像 特征 的 提 
联 。 随 着 研究 的 不 断 深入 , 卷 积 神经 网 络 也 逐渐 被 应 
用 可 文本 特征 的 选取 。 文 本 数据 对 应 着 海量 权重 ， 
通过 郑 积 神经 网 络 的 卷 积 层 与 池 化 层 的 运算 ,可 以 有 效 
地 进行 特征 选择 ”1 。 从 情感 倾向 性 分 析 的 角度 来 讲 ,这 
本 六 出 除 文本 中 的 元 余 信 息 ,将 关键 情感 提取 出 来 。 
全 卷 积 神经 网 络 中 主要 包含 卷 积 和 池 化 两 个 过 
稳 准 : 卷 积 的 作用 是 为 了 特征 选择 ,将 自学 习 的 “ 卷 积 
核 z 以 滑动 窗口 的 形式 扫 过 整 篇 文档 (此 处 为 表示 方 
便 z 将 情感 文本 中 的 文字 转换 为 数字 ) ,整个 运算 过 程 
妈 汲 卷 积 过 程 。 卷 积 过 程 中 重要 的 语义 信息 在 运算 过 
程 中 会 被 放大 , 非 重 要 的 语义 信息 将 会 被 缩小 ; 池 化 过 
程 则 是 一 个 特征 降 维 的 过 程 ,目的 是 减少 计算 量 。 在 
情感 倾向 性 分 析 中 ,通常 选择 最 大 池 化 以 保留 最 关键 
的 语义 信息 。 有 了 卷 积 和 池 化 , 卷 积 神经 网 络 可 以 在 
提取 出 情感 文本 中 重要 特征 的 同时 ,大 幅度 降低 维度 ， 
从 而 增加 计算 便利 性 。 


2 ”基于 字 词 向 量 的 多 尺度 卷 积 神经 网 络 


可 | 


微 博 评论 情感 分 类 模型 
2.1 情感 分 类 模型 的 构建 过 程 
基于 上 述 相关 理论 基础 ,本 文 提出 基于 字 词 向 量 
的 多 尺度 卷 积 神经 网 络 情感 分 类 模型 ( Multiscale Con- 
volutional Neural Network ,Multi -CNN ) , 见 图 1。 模 型 构 
建 顺 序 依次 为 籁 博 评论 数据 采集 及 预 处 理 , 字 词 级 别 
向 量 训练 及 选择 , 卷 积 神经 网 络 训练 .性 能 评测 及 模型 


选择 、 微 博 评 论 情感 分 类 和 数据 分 类 结果 分 析 等 六 个 
步骤 :中 微 博 评论 数据 采集 及 预 处 理 , 主要 是 通过 网 络 
把 虫 的 方式 获取 微 博 评论 数据 ,并 利用 Jieba 分 词 工具 
以 字 和 词 为 最 小 分 词 单位 进行 分 词 ,并 进行 去 停 用 词 
操作 的 预 处 理 ; 四 字 词 级 别 向 量 训 练 及 选择 ,运用 
Word2Vec 训练 词 向 量 ,并 通过 余弦 相似 度 选 取 最 优 词 
向 量 , 最 后 结合 字 向 量 , 构 建 三 维 文本 矩阵 ;@ 卷 积 神 
经 网 络 训练 ,主要 通过 卷 积 层 的 特征 提取 , 池 化 层 的 降 
维 ,将 三 维 文本 矩阵 映射 为 一 维 向 量 , 以 供 全 连接 层 进 
行 操作 ,然后 通过 模型 训练 ,依靠 反 向 传播 算法 在 训练 
集 上 不 断 调 节 模 型 参数 权重 ,并 通过 交叉 验证 进行 情 
感 词 选择 ;外 性 能 测评 及 模型 选择 ,通过 计算 正确 率 、 
召回 率 、F1 值 进行 对 比 验 证 ,并 选用 综合 表现 最 优 的 
模型 作为 最 终 分 类 模型 ;@ 微 博 评论 情感 分 类 ,模型 依 
据 最 后 确定 的 最 优 模型 进行 微 博 评论 的 情感 分 类 ; 
(@ 分 类 结果 分 析 , 最 后 对 确定 的 微 博 情 感 分 类 结果 进 
行 讨论 和 分 析 。 
2.2 文本 向 量 训练 与 选择 

在 经 过 数据 采集 及 预 处 理 之 后 , 微 博 情感 分 类 需 
要 解决 的 主要 问题 是 将 情感 文本 进行 向 量化 表示 ,使 
之 变 为 可 计算 的 数据 ,以 供 情感 分 类 模型 使 用 。 一 般 
的 解决 方式 是 使 用 词 能 入 模型 ,将 每 一 个 词 映射 为 一 
个 低 维 向 量 , 从 而 使 得 情感 文本 最 终 被 表示 成 一 个 由 
这 些 向 量 构成 的 矩阵 。 本 文 在 研究 过 程 中 使 用 谷 
歌 开源 的 Word2Vec 词 向 量 训练 工具 ,将 每 个 字 或 经 过 
分 词 处 理 后 的 词 映 射 为 一 个 向 量 , 并 使 用 余弦 相似 度 
作为 评价 词 级 别 向 量 的 指标 ,如 公式 (1) 所 示 : 


二 公式 (1) 
xl yl 


对 于 词 级 别 向 量 的 优 劣 判断 的 思路 是 ,在 优质 的 
词 向 量 中 相似 的 词汇 所 映射 成 的 向 量 余 弦 值 较 高 ; 反 
之 无 关 的 词汇 余弦 值 较 小 。 本 文 依据 余弦 相似 度 选取 
两 组 质量 最 优 的 词 级 别 向 量 , 再 结合 一 组 字 级 别 向 量 
构建 三 维 文本 矩阵 , 见 图 2。 
2.3 整体 架构 与 算法 流程 

情感 文本 构建 成 三 维 文本 矩阵 后 ,通过 卷 积 神经 网 
络 进行 文本 特征 提取 与 降 维 。 如 图 3 所 示 ,文本 和 矩阵 的 
起 始 维度 为 200 ,经 过 卷 积 层 处 理 后 , 虽 能 有 效 的 提取 文 
本 特征 ,但 矩阵 的 维度 仍 为 198 ,并 没有 明显 地 减少 。 经 
过 池 化 层 后 矩阵 的 维度 迅速 降 为 64, 这 正 符合 卷 积 神经 
网 络 不 同 操作 的 功能 , 即 卷 积 操作 目的 是 提取 文本 特 
征 , 池 化 操作 目的 是 控制 维度 。 卷 积 层 与 池 化 层 交 蔡 使 
用 ,使 得 模型 能 够 在 有 效 提取 文本 特征 的 同时 降低 维度 。 


sim(x,y) = cos0 = 
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数据 采集 及 字 词 级 别 向 量 卷 积 神 经 网 络 性 能 测评 及 
预 处 理 训练 及 选择 训练 模型 选择 
ee 1 WordVec 1 让 关 积 操作 层 。 | 上 计算 正确 率 1 
1 疏 虫 获取 |! | 词 向 量 训练 1 本 2 SA 
1 微 全 评 论 1 ER = 1 a 

数据 N===>===S : 层 | 十 算 召 区 1 
| [一 一 ) | 余弦 相似 度 选 1 一 ) 人 | 
ER 1 。 取 最 优 词 向 量 1 FF 二 = 二 es A 
1 字 \、 间 为 -2---- - 全 连接 操作 层 。 | 1 ”计算 Fl 值 1 
1 单位 进行 1 ne hae | 1 I 1 

分 记 = 
1 I 1 ”构建 三 维 | SS ss ss 1 pa | 
:easa g ! 文本 逢 库 |! 1 。 交 X 验 证 | 本 es 
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微 博 评论 情感 分 类 


™ 
分 类 结果 分 析 
CD 
三 
区 
站 定 卷 积 > > 3 下 局 f 设 定 随机 失 活 率 
©O 
CD 图 1 基于 字 词 向 量 的 多 尺度 卷 积 神经 网 络 的 微 博 评论 情感 分 类 模型 
GN 
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报道 、 少 点 、 娱 乐 、 re 
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© 一 
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多 点 正 能 量 的 报道 ， 多 点 、 正 能 量 、 报 道 、 Word2Vec 
少 点 娱乐 明星 的 关注 少 点 、 娱 乐 明 星 、 关 注 
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图 2 ”三维 文 本 矩阵 的 构建 示例 
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图 3 卷 积 操作 与 池 化 操作 过 程 示 意 


如 图 4 所 示 , 本 文 依据 AlexNet 分 组 卷 积 设计 了 三 
种 不 同 尺度 的 卷 积 核 ,分 别 为 3 x128、4 x128 和 5 x 


128 0 邻 的 三 、 四 或 五 个 词 进行 
5 COV_A 1 MAXP A 1 COV A 2 MAXP A 2 
(O Em 
入 | 国 间 癌 本 届 
| 国 | 
2 3*width shapeA 
©S COV_B 1 MAXP_B 1 COV_B 2 MAXP B 2 
I 中 各 一 上 
© | Fe | 
CD 4*width shapeB 
oo COV .C1 MAXPC 1 COV .C2 MAXP C 2 
CN | i 
之 S#width shapeC 
>< 
[ae) 
.所 文本 矩阵 在 特征 提取 之 后 将 经 过 两 个 全 连接 层 。 


名 个 全 兴 民 拓 有 128 个 神经 元 .第 二 个 全 连接 尼 
二 gs 个 神经 元 ,这 样 可 以 将 特征 提取 后 的 文本 逢 隆 
重新 拉 挤 为 一 个 二 维 向 量 。 因 为 全 连接 层 的 使 用 会 大 
大 增加 模型 的 参数 量 ,甚至 造成 过 拟 合 ,所 以 要 加 入 
Dropout 层 以 控制 全 连接 层 神 经 元 的 随机 失 活 数 量 。 
Dropout 在 每 轮 迭 代 中 会 随机 的 将 一 定 比例 的 神经 元 
“ 杀 死 ", 即 指定 其 输出 为 零 , 使 得 其 连接 的 权重 不 会 
在 反 向 传播 的 训练 过 程 中 参与 权重 更 新 。 这 样 一 方面 
控制 了 模型 的 参数 量 ,方便 了 计算 ; 另 一 方面 也 割裂 了 
某 些 权重 之 间 的 非 必 要 依赖 ,降低 模型 过 拟 合 的 风险 ， 
使 得 模型 在 测试 集 上 的 准确 率 显 著 提升 。 

卷 积 神经 网 络 训练 阶段 的 本 质 是 通过 计算 损失 函 
数 ,并 按照 反 向 传播 算法 不 断 进行 权重 更 新 的 迭代 过 
程 "。 本 文选 择 二 分 类 交叉 炉 损 失 函 数 作为 代价 函 
数 ,损失 函数 的 表达 式 为 公式 (2) : 


过 


区 


趣 一 


4 ” 卷 积 层 与 池 化 层 处 理 过 程 


文本 特征 提取 。 每 种 卷 积 核 数 量 设置 为 128 个 ,结合 
相同 的 最 大 池 化 操作 形成 卷 积 特征 提取 层 。 最 终 , 将 
三 种 卷 积 单元 结合 成 一 个 一 维 向 量 。 


COV A3 MAXP A 3 


combine 


J= -二 Syhnat+(l-y)ln (1 -a) 公式 (2) 


其 中 ,y 为 期 望 输 出 ,a 为 神经 元 的 实际 输出 ,整体 
损失 为 J。 交叉 和 损 失 函 数 具 有 良好 的 函数 性 质 :中 当 
期 望 与 真实 输出 接近 时 ( 即 期 望 与 真实 输出 同 为 1 或 
同 为 0) ,损失 ] 接近 为 0。 四 当期 望 与 真实 输出 相距 
较 远 ( 即 期 望 为 0 真实 输出 为 1 ,或 期 望 为 1 真实 输出 
为 0) ,损失 接近 无 穷 大 。 由 于 神经 网 络 的 参数 更 新 依 
赖 于 梯度 下 降 , 较 大 的 损失 意味 着 模型 参数 的 更 新 ,而 
损失 为 零 则 表明 模型 收敛 , 即 期 望 与 真实 输出 一 致 。 

梯度 计算 为 公式 (3 ) : 


DO 公式 (3) 
RE 公式 (4) 


和 “ 
其 中 ,w 表示 权重 ,z 表示 每 一 层 神 经 元 的 输入 。 

其 中 ,权重 更 新 没有 oa’ (z) 这 一 项 , 仅 依 赖 o(z) -y， 

误差 较 大 时 权重 更 新 快 ,误差 较 小 时 权重 更 新 慢 。 
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在 确定 损失 函数 后 ,模型 需要 选择 优化 算法 迭代 
求解 最 优 值 ,本 文选 择 目前 深度 学 习 领 域 广泛 使 用 的 
Adam 优化 算法 进行 迁 代 更 新 一 : 。 最 后 ,模型 整体 流 


COV_A1 MAXP AT 


COV A2 WMAXP A 2 


3*width ShapeA 


COV_B 2 


MAXP_B_ MAXP_B 2 


dx*width shapeB 
COV_C1 MAXP_C_ 


COV C2 MAXP C2 


畏 国 一 关 国 一 国 国 一 
, 翻 中 -条 民 - 虎 村 
下 工 全 开本 


程 如 图 5 所 示 。 该 过 程 主要 分 为 三 个 部 分 ,分 别 为 文 
本 向 量化 层 (embedding 层 ) 、 卷 积 特征 提取 层 和 分 类 
层 。 


COV_A 3 MAXP A 3 


sof tmax 


COV.B3 MAXp B3 
combine 


COV C3 MAXPC 3 


分 类 层 


词 向 量 A 层 
词 向 量 B 层 
词 向 量 C 层 
5*width shapeC 
embedding 层 卷 积 特征 选取 层 
™ 
区 图 5 进行 深度 学 习 迭 代 算 法 流程 


3 人 6 数据 预 处 理 
入- 为 验证 本 文 构建 的 微 博 情感 分 类 模型 的 准确 性 ， 
人 
“ 微 香 热 搜 整改 "话题 为 例 , 使 用 Python3.6, 采 用 网 络 
获取 的 数据 字 
段 镶 括 用 户 ID .昵称 .个 人 资料 微 博 内 容 、 移 动工 具 


ee 是 向 博 热 搜 


inxiex baicki.com 


端 类 型 .转发 评论 ,点 赞 数量 和 评论 时 间 等 。 根 据 百 度 
指数 的 统计 数据 ,关键 词 “ 微 博 热 搜 整改 " 熏 情 的 生命 
周期 为 2018 年 1 月 26 日 至 2018 年 2 月 28 日 ,如 图 6 
所 示 。 数 据 到 达 顶 峰 的 时 间 段 位 于 1 月 27 日 ,因此 本 
文选 择 该 网 络 与 情 的 第 一 个 高 峰 作为 情感 倾向 性 分 析 
的 研究 起 始点 ,以 2 月 28 日 作为 终止 点 。 在 “ 微 博 管 
理 员 ”用 户 下 采集 微 博 用 户 评 论 信 息 。 


2018 年 1 月 26 日 2 月 4 日 2 月 12 日 2 月 20 日 
媒体 指数 68 
34 
Po 2012 2013 2014 2015 . 2016 2017 zo 
图 6 “ 微 博 热 搜 ”百度 指数 (资料 来 源 :http://index. baidu. com/ ) 


原始 微 博 评论 数据 包含 商业 广告 .评测 活动 等 品 
声 数据 ,并非 所 需要 的 情感 文本 数据 。 为 消除 这 部 分 
噪声 数据 对 实验 效果 的 影响 ,在 中 文 分 词 前 ,需要 进行 
数据 清洗 。 本 文选 用 的 数据 清洗 方法 为 基于 关键 词 的 
识别 方法 ,并 通过 分 析 总 结 出 这 部 分 噪声 数据 大 多 数 
包含 相同 的 主要 关键 词 ,对 包含 该 类 关键 词 的 评论 数 
据 进 行 剔 除 , 去 除 评论 数据 中 仅 “@ 其 他 微 博 用 户 ” 的 
评论 以 及 “http” 开 头 的 锚 链 接 , 形 成 初步 的 数据 集 , 共 
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计 134 765 条 ,经 初步 筛选 后 ,剩余 116 764 条 ,并 招募 
在 校 大 学 生 对 其 进行 正 负 情 感 分 类 ,共计 招募 大 学 生 
175 人 ,采用 投票 法 对 初步 租 选 后 的 116 764 条 数据 进 
行人 工 二 分 类 ,统计 分 类 结果 后 ,票数 差 大 于 25 票 的 
视 为 有 效 数据 ,原因 是 为 了 保证 正 负 样本 的 明显 倾向 
性 。 例 如 : 若 某 一 样本 为 正 样本 ,其 得 到 的 正 样本 的 投 
票数 至 少 为 100 票 , 负 样本 的 投票 数 则 至 多 为 75 票 。 
设 定 票 差 是 为 了 从 总 体 样本 中 得 除 具有 此 义 性 的 样 
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本 ,保证 样本 的 明显 倾向 性 ,从 而 有 助 于 模型 的 训练。 
经 过 筛选 后 最 终 确 定 91 376 条 数据 。 其 中 正 向 情感 
38 185 条 , 负 向 情感 53 191 条 。 
3.2 实验 内 容 设计 

本 文 设计 了 三 个 实验 : 

首先 ,为 验证 引入 字 级 别 向 量 对 模型 效果 的 提升 ， 
选取 相同 的 语 料 数据 训练 维度 相同 的 字 向 量 与 词 向 量 
各 两 组 ,以 验证 引入 字 级 别 向 量 对 模型 的 帮助 。 

其 次 ,为 了 确定 模型 超 参 数 ,并 进一步 验证 基于 
字 词 向 量 的 多 尺度 卷 积 神经 网 络 微 博 评 论 情感 分 类 
模型 的 有 效 性 及 优越 性 , 本文 对 实验 内 容 及 流程 进 
行 了 如 下 设计 :训练 /测试 集 划 分 。 每 次 实验 随机 
选取 80% 的 数据 集 作为 训练 集 ,选取 剩余 的 20% 作 
源 测 试 集 ,测试 集 不 参与 训练 , 仅 用 来 验证 模型 性 
能 2 文本 向 量 训练 及 选择 。 为 了 保证 文本 向 量 的 
质量 ,本 文 使 用 搜狐 全 网 新 闻 数 据 语料库 训练 词 向 
搜狐 全 网 新 闻 数 据 语料库 搜集 了 国内 若干 新 闻 
2012 年 6 月 -7 月 期 间 的 20 000 余 篇 真实 新 闻 
数据, 涵盖 社会 体育. 新闻、 娱乐 等 18 个 频道 ,数据 
真爱, 黎 盖 领域 广 。 选择 该 语料库 进行 词 向 量 训练 
下 纲 尽 量 降低 词 向 量 的 针对 性 ,增强 泛 化 能 力 ;@@ 构 
建 王 积 神 经 网 络 模型 。 采 用 Keras 深度 学 习 工具 包 
各 .TensorFlow 作为 其 后 端 支持 。@ 超 参数 调节 。 为 
了 提升 模型 分 类 性 能 ,对 卷 积 核 尺 寸 .激活 函数 、 
difout 随机 失 活 比 率 以 及 和 迭代 次 数 进行 调节 ;加 效 
"三 最 后 ,本 文选 用 国家 语言 资源 监测 与 研究 中 心 发 
布 的 “2017 年 度 十 大 网 络 用 语 ”29 作为 集 外 词 。 统 计 
数据 集中 出 现 这 些 集 外 词 的 相关 评论 信息 ,选取 数目 
最 多 的 网 络 用 语 ,构建 数 据 集 ,计算 不 同 模型 对 其 的 分 
类 正确 率 ,验证 模型 对 集 外 词 的 处 理 能 力 。 


4.1 中 文字 向 量 分 类 能 力 实验 

实验 使 用 相同 的 语 料 数据 训练 维度 相同 的 字 向 量 
与 词 向 量 各 两 组 , 均 为 128 维 。 选 取 数 据 集 中 的 
10 000 条 数据 ,其 中 正 负 样本 各 计 5 000 条 ,构建 数据 
子 集 。 同 时 ,搭建 两 种 形状 结构 相同 的 卷 积 神经 网 络 ， 
卷 积 核 形状 均 为 3 x 128 ,设置 三 个 该 形状 的 卷 积 核 ， 
结合 同样 形状 的 池 化 层 , 最 后 一 层 为 单 神经 元 的 全 连 
接 层 。 并 选取 逻辑 斯 蒂 回归 及 高 斯 核 SVM 分 类 器 作 
为 男 外 两 个 模型 ,训练 并 观察 其 分 类 结果 。 结 果 如 表 
1 所 示 : 


表 1 中 文字 向 量 分 类 能 


模型 词 向 量 1 ” 词 向 量 2” 字 向 量 1 ” 字 向 量 2 
CNN 准确 率 W761 0.780 2 0.809 4 0.801 0 
SVM 准确 率 全 0.741 7 人 | 0.703 2 

Logistic 准确 率 0.723 4 D201 0.761 9 0.724 2 


实验 结果 显示 ,中 文字 向 量 在 结合 卷 积 神经 网 络 
的 特征 提取 后 ,能够 带 来 一 定 分 类 能 力 的 提升 。 同 时 ， 
在 其 他 模型 上 ,中 文字 向 量 也 有 着 不 错 的 分 类 效果 。 
4.2 基于 字 词 向 量 的 多 尺度 卷 积 神经 网 络 超 参 数 确 
定 及 对 比 实验 

在 经 过 词 向 量 训 练 后 ,需要 通过 超 参数 的 调节 以 
确定 最 优 分 类 模型 。 超 参数 不 同 于 模型 本 身 的 权重 参 
数 , 无 法 通过 梯度 下 降 的 方式 进行 调 优 。 这 些 超 参数 
的 不 同 选择 ,在 很 大 程度 上 影响 了 模型 整体 的 性 能 。 
本 文 针对 卷 积 核 尺 寸 、 激 活 函 数 、Dropout 随机 失 活 率 
及 迭代 次 数 为 待 调整 的 超 参 数 ,通过 实验 进行 讨论 分 
析 , 以 确定 最 优 的 超 参 数组 合 。 
4.2.1 卷 积 核 信 寸 ， 卷 积 神经 网 络 中 卷 积 核 矿 寸 是 
一 个 重要 参数 。 由 于 情感 分 类 问题 中 使 用 的 是 一 维 卷 
积 核 , 只 需 验证 卷 积 核 的 长 度 对 模型 性 能 的 影响 , 卷 积 
核 的 长 度 意味 着 滑动 窗口 将 关注 多 少 个 近邻 词汇 。 
本 文 考虑 相 邻 的 2 -6 个 词汇 , 共 五 种 卷 积 核 ,结合 三 
层 卷 积 的 网 络 架构 ,设计 了 六 种 结合 方式 并 进行 实验 


对 比 ,如 表 2 所 示 。 
表 2 选用 不 同 卷 积 核 尺 寸 的 实验 对 比 表 

各 层 卷 积 核 尺 寸 训练 集 正确 率 测试 集 正确 率 。” 召回 率 Fl 值 
2,3,4 人 381 了 7 0.872 0 0.943 6 0.913 0 
4,3,2 0.9770 0.875 6 0.942 2 0.9129 
3,4,5 .91 2 0.8776 0.941 8 0.9128 
5,4,3 0.964 3 0.862 1 0.951 4 0.910 1 
4,5,6 0.991 4 0.872 2 0.945 9 0.911 9 
6,5,4 0.9517 0.843 0 0.916 2 0.893 1 


实验 结果 表明 ,各 层 卷 积 核 尺 寸 选 为 3,4,5 时 , 模 
型 在 测试 集 的 分 类 正确 率 最 高 ,能 够 得 到 分 类 精度 较 
高 的 模型 ; 选 为 2,3 ,4 时 ,模型 的 召回 率 与 Fl 值 最 高 ， 
能 够 得 到 正 例 识别 率 较 高 的 模型 ;与 此 同时 , 卷 积 核 尽 
寸 大 于 或 等 于 5 时 ,模型 产生 了 过 拟 合 ,在 测试 集 上 精 
度 会 有 明显 下 降 。 实 验 结果 符合 人 们 关于 语言 的 主观 
认识 , 即 在 一 般 情 况 下 , 词 之 间 的 距离 超过 五 时 ,其 相 
互 作用 往往 几乎 不 存在 ,也 就 无 法 利用 这 种 尺寸 的 卷 
积 核 提 取 有 效 的 语义 特征 。 
4.2.2 激活 函数 神经 网 络 的 激活 函数 是 其 非 线性 
变换 的 重要 组 成 部 分 。 当 今 深度 神经 网 络 中 常见 的 激 
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活 函 数 一 般 有 tanb 与 ReLU 两 种 ”。 计 算 方式 如 公式 
(5) .公式 (6) 所 示 : 
tanh (x) 这 公式 (5 ) 


e te 

ReLU(x) =max (0,x) 公式 (6) 

本 文 使 用 测试 集 上 表现 最 优 的 卷 积 核 尺 寸 进行 调 
节 卷 积 层 与 全 连接 层 的 激活 函数 。 如 表 3 所 示 。 实 验 
结果 显示 ,在 卷 积 层 使 用 tanh 函数 ,全 连接 层 使 用 Re- 
LU 函数 时 ,模型 综合 表现 最 优 。 其 中 , 耕 卷 积 层 选 用 
ReLU ,本 身 会 破坏 神经 网 络 中 初始 化 的 权重 ,者 是 在 
此 种 情况 下 将 全 连接 层 的 激活 函数 选 为 tanh, 则 经 过 
藻 干 轮 迭 代 后 ,在 前 向 传播 过 程 中 双 曲 正切 函数 的 输 


和 人 将 都 会 集中 在 x 轴 正 半 轴 , 双 曲 正切 函数 在 无 穷 远 
处 的 梯度 值 为 零 ,将 导致 模型 出 现 严 重 的 梯度 弥散 问 
题字 


CO 。 选用 不 同 激活 函数 在 测试 集 的 实验 对 比 结果 


测试 集 测试 和 测试 集 
卷 积 层 。 全 连接 层 。 
Ld 正确 率 召回 率 Fl 值 
(Si 1 tanh tanh 0.871 5 0.932 4 0.912 4 
[Yt 2 tanh ReLU 0.894 2 0.9233 0.927 2 
a ReLU ReLU 0.867 8 0.898 2 0.903 4 


4@B Dropout 随机 失 活 率 与 迭代 次 数 “ 网 络 结构 中 
DREput 层 的 随机 失 活 率 以 及 训练 的 迁 代 次 数 也 是 影 
响 模型 性 能 的 重要 因素 。 以 下 为 相关 实验 的 验证 过 
程 过 首先 测试 Dropout 随机 失 活 率 对 模型 性 能 的 影响 ， 
在 测试 集 上 的 相关 指标 如 下 图 7 所 示 , 可 以 看 出 Drop- 
ou 名 末 机 失 活 率 对 模型 的 影响 趋势 。 当 Dropout 随机 失 
活 紧 处 在 0.05 - 0. 1 时 ,模型 的 各 项 指标 达到 最 优 效 
时 $ 雪 随机 失 活 率 超 过 0. 1 后 模型 的 整体 指标 呈现 下 
降 的 趋势 。 因 此 ,将 Dropout 随机 失 活 率 设 置 为 0.05 
-0.1 之 间 可 获得 最 好 的 模型 性 能 。 


0.0 0.1 0.2 0.3 04 0.5 0.6 
随机 激活 率 


7 ”Dropout 随机 失 活 率 对 模型 性 能 的 影响 
深度 神经 网 络 中 的 训练 迭代 次 数 需 要 人 工 调整 超 


值 而 导致 欠 拟 合 现象 ;反之 迭代 次 数 过 多 ,一 方面 延长 
了 模型 的 训练 时 间 , 男 一 方面 也 使 得 模型 面临 过 拟 合 
问题 ,失去 应 有 的 泛 化 能 力 。 图 8 显示 了 迭代 次 数 分 
别 为 1 -20 时 ,模型 相关 指标 的 变化 情况 。 从 图 8 中 
可 以 看 出 ,在 迭代 15 轮 以 后 ,模型 的 各 项 指标 已 经 达 
到 最 优 效 果 ;16 轮 之 后 各 项 指标 有 明显 下 滑 趋势 , 表 
明 此 时 模型 已 经 过 拟 合 。 因 此 ,本文 将 迭代 次 数 设 定 
在 15 次 。 


1.00 


上 


二 
选 代 次 数 


图 8 迁 代 次 数 对 模型 相关 指标 的 影响 


4.2.4 实验 结果 对 比 ”为 验证 本 文 所 构建 模型 的 优 
越 性 ,本 文选 择 了 目前 主流 的 情感 分 类 模型 在 相同 数 
据 集 上 进行 了 实验 结果 对 比 。 实 验 对 比 结果 如 表 4 所 
示 : 


表 4 情感 分 类 模型 对 比 实 验 结果 


模型 正确 率 召回 率 Fl 值 
CBOW-SVM 0.7844 0.772 4 人 73 
Word2Vec-CNN 0.851 6 0.8499 0.850 1 
Att-CNN 0.9029 0.891 8 0.874 9 
Multi-CNN 0.9473 0.923 7 0.927 4 


其 中 ,CBOW-SVM 是 直接 将 文本 数据 通过 N-gram 
模型 输入 到 SVM 中 进行 分 类 ;Word2Vec -CNN 是 利用 
Word2Vec 训练 的 词 向 量 ,利用 卷 积 神经 网 络 进 行 训 
练 ;Att-CNN 则 是 利用 LSTM 为 基础 架构 的 引入 注意 力 
机 制 的 模型 对 词 向 量 组 成 的 文本 和 矩阵 进行 训练 。 对 比 
实验 数据 结果 ,表明 本 文 提出 的 Multi-CNN 模型 在 微 
博 评论 这 种 短文 本 分 类 任务 中 的 各 项 指标 都 相对 较 
高 ,并 表现 出 较 准 确 的 分 类 效果 。 
4.3 基于 字 词 向 量 的 多 尺度 卷 积 神经 网 络 对 集 外 词 
的 处 理 能 

为 验证 模型 对 集 外 词 的 处 理 能 力 , 本 文选 用 国家 语 


参数 ,迭代 次 数 的 设 定 往 往 因 所 处 理 任务 的 不 同 而 不 
同 。 迭 代 次 数 过 少 , 会 使 模型 不 能 够 收敛 到 局 部 极 小 
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表 5 2017 年 度 十 大 网 络 用 语 


序号 网 络 用 语 
1 打 call 
2 粹 牟 
3 你 的 良心 不 会 痛 么 
4 惊 不 惊喜 , 意 不 意外 
5 皮 皮 虾 ,我 们 走 
6 扎 心 了 , 老 铁 
还 有 这 种 操作 
8 型 
9 你 有 freestyle 么 
10 油腻 


统计 数据 集中 出 现 这 些 集 外 词 的 相关 评论 信息 ， 
其 中 “还 有 这 种 操作 ”数目 最 多 ,达到 1 146 条 ,其 中 正 
向 情感 数目 为 487 条 , 负 向 情感 数目 为 659 条 。 统 计 
4 模型 对 其 分 类 的 正确 率 , 结 果 如 表 6 所 示 : 
. 表 6 情感 分 类 模型 正确 率 对 比 


模型 正确 率 
CBOW-SVM 0.534 
Word2Vec-CNN 人 .7 和 1 
Att-CNN 0.769 
Multi -CNN 0.873 


中 可 见 , 由 于 集 外 词 的 存在 ,CBOW 这 类 基于 N-gram 
靖江 型 很 难 构建 出 有 效 的 语义 特征 ,其 分 类 效果 较 差 。 
CI 还 类 模型 由 于 卷 积 层 的 存在 ,能 够 有 效 的 进行 特征 
提 嘱 ,其 分 类 效果 远 远 高 于 CBOW。 而 Multi-CNN 由 
于 来 用 了 更 为 细 粒 度 的 字 级 别 向 量 , 其 正确 率 明显 超 
过 了 其 它 CNN 模型 。 从 而 该 实验 数据 证 明了 其 对 集 
外 河 具 有 良好 的 处 理 能 


5 研究 结论 


在 理论 层面 ,本 文 基于 现 有 微 博 评论 由 于 上 下 文 
信息 有 限 、 集 外 词 多 等 情感 分 类 的 难题 ,提出 了 基于 字 
词 向 量 的 多 尺度 卷 积 神经 网 络 微 博 评论 的 情感 分 类 模 
型 。 该 模型 运用 卷 积 层 来 学 习 微 博 评 论 中 的 结构 特征 
及 语义 特征 ;同时 运用 多 尺度 卷 积 核 来 捕捉 词语 间 的 
更 多 联系 ,以 有 效 关注 不 同 程度 的 上 下 文 信息 ,从 而 改 
善 微 博 评 论 中 上 下 文 信息 有 限 的 条 件 制约 ;并 选用 字 
词 向 量 相 结合 的 方式 ,在 一 定 程度 上 减轻 了 集 外 词 对 
模型 情感 分 类 性 能 的 影响 。 通 过 疏 取 微 博 评论 的 真实 
数据 ,验证 了 模型 的 可 行 性 ,该 模型 可 为 微 博 评论 情感 
分 类 模型 的 构建 及 方法 研究 提供 新 的 理论 模型 和 方法 

在 实践 层面 ,本 文通 过 实验 方法 对 影响 模型 性 能 


的 超 参 数 提供 了 设置 思路 ,并 对 比 了 主流 的 情感 分 类 

的 相关 研究 方法 ,构建 和 验证 微 博 评论 情感 分 类 模型 。 

通过 运用 卷 积 神经 网 络 , 可 以 分 析 网 络 用 户 对 话题 事 

件 的 关注 程度 和 情感 变化 ,从 而 为 相关 与 情 监管 部 门 

正确 管控 话题 事件 的 发 展 状 况 和 与 情 走向 起 到 一 定 的 

指导 作用 ,为 微 博 和 舆情 的 动态 调控 及 监测 提供 更 为 可 

行 性 的 管理 办 法 。 
本 文选 用 字 词 向 量 结合 多 尺度 卷 积 核 的 方式 在 一 

定 程 度 上 解决 了 集 外 词 等 问题 ,但 在 研究 过 程 中 仍然 

存在 一 定 的 缺陷 , 卷 积 神经 网 络 训练 时 间 较 长 ,并 且 对 

超 参数 的 设置 十 分 敏感 。 在 后 续 的 研究 中 ,将 考虑 通 

过 一 些 正则 化 方式 降低 模型 的 过 拟 合 风险 及 模型 的 

练 难度 ,从 而 进一步 提升 模型 的 泛 化 能 
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lt =Abstract: | Purpose/ significance | The microblog commentary sentiment classification model can play a guiding role 
foitthe relevant public opinion supervision departments to correctly control the development of the topic events and the pub- 
fie epinion. [ Method/ process | Based on the multi-scale convolutional neural network of word vector, this paper used 
multi -scale convolution kernel to improve the conditional constraints of finite context information in microblog commentary ， 
and constructed multi-scale convolutional neural network microblog commentary emotion classification model based on word 
vector. Finally, the feasibility and superiority of the model were verified by crawling the real data of “ microblogging hot 
search and rectification”. [Result/conclusion | Verification results show that the multi-scale convolutional neural network 
based on word vector performs well in the short text classification task with limited context information such as weibo public 
opinion. On the theoretical level, this paper provides a more accurate emotional classification theory model and classifica- 
tion method for microblogging public opinion emotion classification. In practice, it can better guide the public opinion su- 
pervision department to better guide and supervise the emotional sentiment of public opinion. 
Keywords: convolution neural network word vector multiscale convolution kernel Weibo comments sentiment 


classification 
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